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摘要 : 【 目的 ] 针对 网 络 中 海量 的 Web 服务 , 提出 一 种 有 效 的 Web 服务 聚 类 与 发 现 方法 。[ 方法 ] 利用 BTM 学 
习 整 个 Web 服务 描述 文档 集 的 隐 含 主题 ， 通 过 推理 得 出 每 个 文档 的 主题 分 布 ， 并 进行 聚 类 。 在 此 基础 上 , 创建 一 
个 快速 的 Web 服务 发 现 机 制 。[ 结果 】 与 使 用 LDA 和 外 部 语料库 等 方法 进行 对 比 实验 , 本 文 方法 的 查 准 率 和 标 
准 折 损 累计 增益 均 有 所 提高 。[ 局 限 】 仅 考虑 服务 的 功能 信息 , 未 将 服务 的 质量 信息 纳入 算法 。[ 结论 】 实验 结 


果 显 示 该 方法 可 以 更 准确 地 发 现 符合 用 户 需 求 的 服务 。 
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目前 正在 步 人 面向 服务 的 时 代 ，SOA(Service 
Oriented Architecture) 架 构 被 广泛 应 用 ,而 Web 服务 逐 
渐 成 为 实现 SOA 架构 的 主流 技术 。SOA 架构 遵循 发 
现 、 绑 定 、 执 行 的 服务 模式 , Web 服务 由 提供 者 发 布 在 
私有 的 或 公共 的 互联 网 平台 上 , 用 户 在 海量 的 Web 服 
务 中 发 现 符合 自己 要 求 的 Web 服务 ,与 之 进行 绑 定 调 
用 , 实现 自己 的 目的 。 在 这 个 过 程 中 , 用 户 不 需要 了 解 
服务 的 实现 方式 只 需 服务 能 够 提供 给 用 户 满 意 的 执 
行 结果 。 互 联网 平台 上 发 布 的 服务 日 益 增 多 ， 如 何 从 
海量 的 Web 服务 中 发 现 用 户 满意 的 服务 ， 即 从 发 布 的 
Web 服务 描述 中 发 现 能 满足 用 户 期 望 的 服务 , 是 实现 
面向 服务 架构 关键 的 一 环 。 

Web 服务 描述 文本 篇 幅 较 短 、 特 征 稀 芍 和 信息 量 
少 , 根据 词语 的 共 现 程度 来 度量 相似 性 不 可 行 。 基 于 
关键 词 发 现 Web 服务 , 完全 依赖 词语 共 现 程度 , 十 分 
不 准确 。 为 了 丰富 Web 服务 描述 文本 , 一 些 语义 Web 
方法 被 用 于 服务 发 现 , 例如 基于 语义 或 者 本 体 发 现 
Web 服务 的 方法 "1, 但是， 建立 和 维护 本 体 十 分 困难 ， 
并 且 需 要 大 量 的 人 工 干 预 外 ,此 外 , 在 面 对 海 量 的 Web 


服务 时 ,由 于 没有 有 效 的 分 类 机 制 , 很 难 快速 有 效 地 
发 现 Web 服务 。 
针对 上 述 问题 , 本 文 提出 一 种 利用 BTM (Biterm 
Topic Model) 中 的 Web 聚 类 与 发 现 方法 。BTM 对 整个 
语料库 的 词 对 生成 过 程 建 模 ， 从 而 学 习 整 个 语料库 的 
主题 分 布 和 主题 - 词 分 布 ， 结 合 向 量 空间 计算 词 的 
TF-IDF 值 ,可 以 推理 得 到 每 篇 Web 服务 描述 的 主题 分 
布 ， 进 而 对 其 聚 类 。Web 服务 发 现 过 程 为 : 获取 请 求 服 
务 的 类 别 ; 对 该 类 别 下 的 服务 进行 基于 主题 相似 度 的 
过 滤 ， 大 大 缩小 检索 范围 ; 计算 请 求 服务 与 Web 服务 
之 间 的 词 向 量 相似 度 , 结合 主题 相似 度 和 词 向 量 相似 
度 , 找到 满足 用 户 需 求 的 服务 集合 。 


2 相关 工作 


对 Web 服务 发 现 的 研究 ,大 量 的 工作 投入 在 利用 
本 体 、 词 典 发 现 的 方法 5 中 。 文献 运用 领域 本 体 
提出 一 种 Web 服务 发 现 方法 , 该 方法 通过 本 体 中 的 概 
念 距离 计算 服务 请 求 和 发 布 的 服务 之 间 的 语义 相似 
度 。 文献 [9] 对 Web 服务 进行 语义 标注 , 帮助 发 现 Web 
服务 。 但 是 这 类 方法 需要 大 量 的 人 工 干预 , 依赖 于 本 
体 的 好 坏 及 维护 工作 , 词 库 在 某 些 领域 的 词汇 量 不 足 
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和 更 新 较 慢 也 可 能 导致 发 现 结果 不 准确 。 并 且 ， 此 类 
方法 前 提要 求 服 务 发 布 方 或 请 求 方 要 提供 相关 的 领域 
本 体 ， 而 通常 情况 下 ,服务 请 求 方 是 非 专业 用 户 ,不 
能 提供 专业 的 本 体 , 因此 , 该 类 方法 的 效率 和 通用 性 
受到 限制 。 此 外 ， 上 述 Web 服务 发 现 方法 ,由 于 没有 
有 效 的 分 类 机 制 , 在 面 对 海 量 的 Web 服务 时 , 不 能 实 
现实 时 匹配 。 

聚 类 是 一 个 有 效 处 理 大量 数 据 的 方法 , 根据 某 一 
相似 性 标准 重新 组 织 数据 , 将 数据 分 为 不 同 的 簇 , 能 
够 实现 快速 的 信息 检索 。Abramowicz 等 中 提出 一 种 
Web 服务 过 滤 和 聚 复 的 方法 , 但 是 过 滤 机 制 是 基于 
OWL-S (Web Ontology Language for Service) 描 述 的 
Web 服务 。 依 然 存在 依赖 本 体 的 缺陷 。 可 获得 的 Web 
服务 ， 大 多 都 用 WSDL(Web Service Describe 
Language) 描 述 ， 也 有 很 多 利用 WSDL 对 Web 服务 分 
类 。Nayak 等 \" 将 Web 服务 描述 转化 到 多 维 词 向 量 空 
间 , 利用 两 个 向 量 之 间 夹 角 的 余弦 , 计算 两 个 服务 之 
间 的 距离 ,对 服务 进行 聚 徐 。 这 是 一 种 基于 数理 统计 
的 分 类 方法 ,可 归 一 化 处 理 大 规模 的 文本 集 , 但 忽略 
了 描述 文本 词 项 之 间 的 语义 关系 , 并 且 消 耗 的 运行 时 
间 和 存储 空间 随 着 文本 集 规 模 的 增加 而 增加 。Cassar 
等 研究 利用 PLSA(Probability Latent Semantic 
Analysis) 和 LDA (Latent Dirichlet Allocation) 挖 据 Web 
服务 描述 的 主题 用 于 聚 类 , 实验 结果 显示 , LDA 模型 
在 大 规模 服务 集中 , 帮助 自动 服务 发 现 的 效果 较 好 。 
LDA 由 PLSA 发 展 而 来 ，Blei 等 5 引入 Dirichlet 先 验 
分 布 扩展 PLSA 模型 , 提出 LDA 模型 ， 通 过 发 现 隐 含 
主题 , 可 以 处 理 大 量 的 文本 数据 , 进而 对 其 进行 分 类 。 
Aznag 等 中 在 对 Web 服务 描述 文档 进行 预 处 理 (特征 
提取 分词、 去除 停 用 词 和 词 干 还 原 等 ) 后 , 利用 CTM 
(Correlated Topic Model) 学 习 Web 服务 和 服务 请 求 的 
隐 含 主题 ， 对 其 进行 分 类 , 匹配 提供 的 服务 与 请 求 服 
务 的 相似 性 ,得 到 最 终 候选 Web 服务 集 。 该 方法 存在 
以 下 不 足 : Web 服务 描述 文本 通常 较 短 ， 类 似 于 短文 
本 , 但 该 方法 并 没有 对 服务 文本 进行 扩充 , 缺少 足够 
的 词 频 共 现 ; 仅 用 Web 服务 库 作 为 训练 集 ， 规 模 较 小 ， 
难以 获得 高 质量 的 主题 模型 ， 以 上 两 点 导致 很 难 学 习 
出 Web 服务 的 真实 隐 仿 主题。 另外, 仅仅 将 Web 服务 
归 入 其 主题 分 布 最 大 的 那 一 类 主题 , 分 类 不 够 精确 。 
Aznag 等 [3 使 用 的 主题 模型 CTM, 由 Blei 等 09 提出 ， 
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该 模型 引入 对 数 正 态 分 布 取代 LDA 中 的 狄 利克 雷 分 
布 ，CTM 模型 先 验 参数 中 包含 一 个 协 方差 矩阵 ， 描 述 
每 对 主题 之 间 的 相关 性 ， 协 方差 矩阵 中 参数 的 数量 与 
主题 数量 的 平方 成 正比 。 魏 强 等 上 使 用 Word2vec 和 
Relatedness 文本 扩充 方法 , 从 Wikipedia 中 提取 特征 扩 
充 Web 服务 描述 文本 , 并 以 英文 Wikipedia 作为 训练 
集 , 利用 HDP 非 参 数 主题 模型 进行 主题 建 模 ， 提 出 
Signature 方法 进行 服务 匹配 , 在 一 定 程 度 上 改进 了 服 
务 发 现 效果 , 但 是 其 服务 匹配 阶段 ， 计 算 输入 输出 相 
似 度 时 , 采用 精确 匹配 、 般 入 匹配 、 包 含 匹配 、 交 叉 
匹配 和 失败 匹配 5 种 类 型 ， 对 概念 相似 度 的 区 分 太 过 简 
单 , 不 适用 于 服务 数量 庞大 的 情况 。 

利用 外 部 知识 库 , 对 短文 本 进行 特征 扩充 是 一 种 
较 常见 的 方法 , 但 恰当 适合 的 外 部 资料 库 不 容易 找 
到 。 而 Web 服务 涉及 很 多 方面 , 很 难 找到 恰当 适合 的 
外 部 资料 库 , 文献 [15] 使 用 Wikipedia 作为 外 部 资料 库 
和 主题 模型 训练 集 Wikipedia 作为 一 种 综合 性 的 文本 
库 , 用 做 特征 补充 和 主题 模型 训练 ， 并 不 准确 。Web 
服务 并 不 包含 所 有 行业 , 在 某 些 领域 使 用 较为 频繁 ， 
Web 服务 数量 也 较 多 ; 但 在 另 一 些 领域 , 则 没有 或 很 
少 有 Web 服务 的 使 用 。 如 果 Web 服务 不 存在 或 数量 
极 少 , 综合 性 的 外 部 资料 库 包含 太 多 的 关联 信息 , 反 
而 会 使 精确 度 下 降 。 文献 [16] 发 现在 短文 本 分 类 时 , 使 
用 一 个 外 部 知识 库 会 使 建 模 精 确 度 下 降 。 

本 文 提出 使 用 BTM 对 Web 服务 描述 文本 进行 建 
模 ， BTM 对 整个 语料库 无 序 词 对 的 生成 过 程 建 模 , 利 
用 整个 库 的 全 部 词 频 共 现 信息 学 习 出 隐 含 主题 , 解决 
了 短文 本 因 稀 玻 性 而 导致 学 习 出 的 主题 不 准确 的 缺 
点 。 由 于 BTM 学 习 出 的 是 整个 Web 服务 库 的 主题 分 
布 和 主题 - 词 分 布 , 提出 一 种 推理 方法 计算 得 出 每 个 
Web 服务 描述 文档 的 主题 分 布 。 


3 ”基于 BTM 的 Web 服务 聚 类 与 发 现 


基于 主题 模型 的 Web 服务 聚 类 与 发 现 框架 如 图 1 
所 示 。Web 服务 库 的 预 处 理 结果 作为 BTM 建 模 的 输 
入， 建 模 的 输出 为 整个 库 的 主题 分 布 和 主题 - 词 分 布 ， 
结合 预 处 理 得 到 的 VSM(Vector Space Model), 推理 计 
算出 每 个 文档 的 主题 分 布 作为 聚 类 的 输入 。 当 有 服务 
请 求 时 ， 预 处 理 得 到 请 求 r 的 词 向 量 ， 此 时 , 前面 计 算 
得 到 的 整个 库 的 主题 分 布 和 词 分 布 不 变 , 不 需 重新 建 
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图 1 服务 发 现 框架 


模 计 算 , 直接 利用 其 推理 计算 出 请 求 + 的 主题 分 布 并 
进行 分 类 。 得 到 T 的 类 别 后 ,计算 主题 相似 度 和 词 向 量 
相似 度 得 到 用 户 满意 的 Web 服务 。 

3.1 ” 预 处 理 

每 一 个 Web 服务 都 有 一 个 使 用 WSDL 描述 的 文 
档 , WSDL 是 一 套 基于 XML 的 Web 服务 描述 框架 , 经 
W3C 对 其 进行 标准 化 , 有 1.1 和 2.0 两 个 版 本 , 2.0 版 
本 更 为 简单 和 实用 。 目 前 ,1.1 版 本 使 用 较为 广泛 , 但 
未 来 2.0 版 本 可 能 会 逐渐 取代 1.1 版 本 。 对 使 用 WSDL 
(1.1 版 本 和 2.0 版 本 ) 描 述 的 服务 文本 数据 预 处 理 主 要 
包含 以 下 步骤: 

(1) 特征 抽取 。 从 WSDL 中 抽取 描述 Web 服务 的 
全 部 特征 ,包括 服务 名 称 、 服 务 功能 文本 描述、 操作 
名 称 、 输 入 /输出 参数 名 称 和 参数 类 型 等 。 

(2) 分 词 。 提 取出 的 文本 中 ， 有 一 些 术语 由 几 个 单 
词组 成 , 称 为 复合 词 , 需要 进行 拆 分 。 例 如 
“BusinessDataCatalog”, 将 其 拆 分 为 “Business”,“Data” 
和 “Catalog”。 

(3) 去 除 标签 和 停 用 词 。 去 除 Web 服务 描述 文本 
中 的 标签 和 停 用 词 ， 以 免 在 建 模 过 程 中 影响 准确 度 ， 
利用 Standford POS Tagger 去 除 全 部 的 标签 和 停 用 词 ， 
只 有 词性 为 名 词 、 动 词 或 形容 词 的 会 被 留 下 来 , 去 除 
的 停 用 词 ,例如 “a”, “is” 和 “that”* 等 ,去 除 的 标签 , 例如 
“soap”, “type” 和 “binding” 等 WSDL 标签 。 

(4) 词 干 还 原 。 拥 有 相同 词 干 的 单词 通常 具有 相 
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同 的 意思 , 例如 “recommended” 只 是 “recommend” 的 过 
去 式 , 利用 Porter Stemmer 对 单词 进行 词 干 还 原 , 使 用 
词 源 形 式 的 单词 向 量 表 示 Web 服务 , 更 能 有 效 地 发 现 
相关 性 。 

(5) 词 对 抽取 。BTM 与 LDA 直接 建 模 在 文档 的 
词 共 现 频率 上 不 同 , BTM 是 基于 整个 语料库 的 词 对 共 
现 率 建 模 。 初 始 短文 本 “BusinessData search for users”， 
在 经 过 抽取 、 分 词 、 去 除 标签 停 用 词 和 词 干 还 原 后 ， 
抽取 出 的 词 对 {(business, data), (business, search)， 
(business, user), (data, search),…} ,将 整个 库 的 词 对 作 
为 BTM 模型 训练 的 输入 。 

(0) 服务 矩阵 。 抽 取 全 部 有 用 词 后 , 计算 词 的 
TF-IDF 值 , 利用 YSM(Vector Space Model) 表 示 全 部 
Web 服务 成 为 一 个 向 量 空 间 , 将 每 一 个 Web 服务 表示 
为 一 个 词 向 量 ，s; = {wii, Ww; ,…, win}s 其 中 每 一 个 词 
的 权重 值 由 TF-IDF 算 出 ，w; = tj xidfi， 其 中 斧 为 文 
档 i 中 词 j 出 现 的 频率 , idf 为 逆向 文本 频率 ， 总 文档 数 
除 以 包含 词语 j 的 文档 数 的 对 数 得 到 , 一 个 词 在 文档 
中 出 现 的 频率 越 高 , 在 其 他 文档 中 出 现 的 频率 低 ， 则 
这 个 词 有 较 高 的 重要 性 , 权重 值 较 大 。 

3.2 ”BTM 模型 

BTM 通过 统计 整个 语料库 的 词 共 现 来 建 模 学 习 
隐 含 主题 , 不 同 于 LDA 是 对 单个 文档 中 的 词 的 生成 
过 程 建 模 ,， 单 个 短文 本 缺乏 足够 的 词 频 共 现 , LDA 建 
模 结果 并 不 稳定 ， BTM 对 整个 语料库 的 词 对 的 生成 


过 程 建 模 ,整个 语料库 的 词 对 的 频率 更 稳定 , 也 更 能 
揭示 出 词 之 间 的 关系 , 学 习 出 整个 库 的 隐 含 主题 。 
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LDA 建 模 一 个 文档 的 生成 过 程 如 图 2(a) 所 示 : 针 
对 每 一 个 文档 随机 生成 一 个 主题 分 布 0s， 从 04 中 取样 
生成 第 i 个 词 的 主题 z: 从 z 中 再 一 步 步 采 样 生 成 词 w。 
可 以 看 出 , 每 一 篇 拥有 一 个 主题 分 布 , 词 的 主题 估计 
取决 于 同 篇 文档 中 其 他 单词 。 一 元 混合 模型 文档 中 所 
有 的 单词 共享 同一 个 主题 z, 而 z 从 全 局 主题 分 布 6 中 
产生 , 假设 整个 语料库 看 作 是 主题 的 混合 ， 从 整个 语 
料 库 统计 信息 ,避免 了 短文 本 信息 稀 玻 的 问题 , 但 是 ， 
一 元 混合 模型 假设 一 个 文档 仅 有 一 个 主题 ， 并 不 符合 
实际 情况 ， 导 致 不 能 学 习 出 好 的 主题 。BTM 可 以 看 做 
是 一 元 模型 和 LDA 的 结合 ， 如 图 2(b) 所 示 , BTM 假设 
一 个 全 局 的 主题 分 布 0, 但 是 其 将 每 篇 文档 分 割 成 词 
对 , 每 对 词 对 属于 一 个 主题 BTM 允许 一 个 文档 有 多 
个 主题 , 即 避 免 了 一 元 混合 模型 的 限制 ， 又 解决 了 
LDA 无 法 在 短文 本 建 模 取得 良好 效果 的 问题 。 
3.3 ”Web 服务 聚 类 

BTM 建 模 得 出 两 个 主要 的 参数 ，6 为 Web 服务 集 
的 主题 分 布 , 是 一 个 K 维 的 向 量 , K 为 整个 服务 集 的 主 
题 数目 ; @ 是 主题 - 词 分 布 矩阵 , 民 行 N 列 , 每 一 行 是 一 
个 主题 Z 下 的 不 同 词 的 生成 概率 。 由 于 BTM 并 未 对 
每 个 文档 的 生成 过 程 建 模 ,所 以 不 能 直接 得 到 每 个 文 
档 的 主题 分 布 。 可 以 通过 6 和 @ 推 理 计算 得 到 ,提出 计 
算 公 式 如 下 : 


P(zjld)= > NP(z; |wi)xP(wi|d) (1) 
其 中 ，P(w;|d) 为 3.1 节 中 第 (6) 步 计算 得 出 的 
TF-IDF 值 。P(z; |w;) 可 以 应 用 贝 叶 斯 公式 计算 得 出 ， 
计算 公式 如 下 : 


P(zj)P(wil2) 
> ,KP(zj)P(wilzj) 
其 中 ，P(zj) 为 主题 分 布 6 中 的 主题 j 的 概率 ， 
P(wi | zj) 为 主题 - 词 分 布 中 中 , 主题 j 下 第 i 个 间 的 概率 。 
得 到 文档 的 主题 分 布 后 ,可 以 将 不 含 语义 信息 的 
文档 词 向 量 表示 形式 转化 为 包含 语义 信息 的 主题 向 量 
表示 ， Si = {P(Z1|di), P(z2 | di),*…, P(zn | di)} 文本 的 
主题 向 量 表 示 形 式 , 向 量 的 每 一 项 都 是 主题 的 概率 ， 
此 , 文本 相似 度 可 以 用 KL 散 度 (Kullback-Leibler 
Divergence) "计算 , 计算 公式 如 下 : 


P(zj|wi)= (2) 


Derp,9= 开 Pd (3) 


1 


但 是 由 于 KL 距离 具有 不 对 称 性 , 即 Dk (si,sj) 
Drr(Gsj,si) 。 因 此 , 使 用 KL 距离 的 改进 对 称 版 本 一 一 
JS 距离 (Jensen-Shannon Divergence)058， 其 计算 公式 
如 下 : 


. 1 Si 十 Sj Si ”5j 
Simr (si,8j) = DJs(si,8j) = Der | Si， + DkL| si， 可 


(4) 

将 计算 得 出 的 Web 服务 描述 文档 相似 性 作为 聚 类 
算法 的 输入 。 
3.4 ”Web 服务 发 现 

服务 匹配 是 指 在 大 量 的 服务 中 , 能 快速 准确 地 查 
找到 符合 用 户 需 求 的 候选 服务 。 当 输入 一 个 服务 请 求 
时 ,对 其 进行 数据 预 处 理 , 通过 主题 分 布 和 主题 - 词 分 
布 矩 阵 计算 得 出 请 求 服务 的 主题 分 布 , 计算 请 求 服务 
与 各 个 聚 复 中 心服 务 的 JS 距离, 将 其 归 入 距离 最 近 的 
一 类 ， 即 锁定 了 与 服务 请 求 类 别 相同 的 服务 子 集 。 

由 于 服务 数量 巨大 , 为 了 节约 匹配 时 间 , 在 得 到 
类 别 相 同 的 服务 子 集 后 ， 对 子 集中 的 Web 服务 基于 主 
题 进行 过 滤 , 利用 JS 距离 计算 服务 请 求 的 主题 与 子 集 
中 服务 主题 的 相似 度 Simz(r, s)， 设 定 一 个 净值 ， 当 相似 
度 大 于 阔 值 时 , 将 此 服务 加 入 候选 服务 集 。 计 算 候 选 服 
务 集中 的 Web 服务 与 服务 请 求 的 词 向 量 相 似 度 。 
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Web 服务 词 向 量 表示 在 3.1 节 中 叙述 , Web 服务 与 
请 求 的 词 向 量 的 相似 度 计算 使 用 余弦 距离 , 余弦 距离 
是 向 量 空间 相似 度 计 算 最 常用 的 一 种 计算 方法 。 计 算 
向 量 空间 中 两 个 向 量 的 夹 角 , 夹 角 越 小 , 则 相似 度 越 
大 。 余 弦 距 离 计算 公式 如 下 : 


n 
> WriXWsi 
a (5) 


之 (va | we) 
1=] i=l 


计算 主题 相似 度 ， 可 以 得 出 服务 间 语 义 维 度 上 的 
相似 度 ,而 词 向 量 相似 度 一 定 程度 上 反映 了 服务 间 统 
计 层 面 的 相似 度 。 因 此 , 将 计算 得 出 的 主题 相似 度 和 
词 向 量 相 似 度 结 合 得 出 总 的 相似 度 ， 即 最 终 得 出 Web 
服务 与 请 求 服务 的 相似 度 如 下 所 示 : 


Sim(r,s)= aSimw (r,s)+(1— a)Simr(r,s) (6) 


其 中 , Qa 为 Web 服务 词 向 量 相似 度 的 权重 , 0<o <1。 
4 实验 结果 及 分 析 


为 对 本 文 提出 的 方法 进行 验证 ,本 实验 采用 
WS-Dream05] 提 供 的 数据 集 ， 该 数据 集 包 含 来 自 69 个 
国家 的 3 378 个 WSDL 文件 , 15 811 个 操作 。 本 文 利用 
Weka 中 的 KNN 算法 5 对 Web 服务 进行 聚 类 。 使 用 查 
准 率 和 标准 折 损 累计 增益 进行 效果 评估 。 

查 准 率 (Precision) 是 一 种 衡量 检索 出 的 全 部 结 
中 ， 有 用 的 结果 比率 有 多 大 ， 即 检索 出 的 相关 的 Web 
服务 数量 与 检索 出 的 全 部 Web 服务 数量 之 比 , 公式 
如 下 : 


Simw(r,s)= 


相关 Web 服 务 门 检索 出 的 全 部 Web 服 务 


查 准 率 不 考虑 发 现 结果 的 位 置信 息 , 仅 能 说 明 发 
现 结果 总 体 的 质量 高 低 。 而 折 损 累计 增益 (Discounted 
Cumulative Gain, DCG) 统 计 方 法 对 检索 返回 的 每 一 个 
结果 进行 相关 性 等 级 排序 ， 相 关 性 高 的 结果 排序 越 靠 
前 越 好 ; 高 相关 性 结果 要 比 低 相关 性 结果 的 贡献 大 很 
多 。 其 公式 如 下 : 


DcG, => 22 = (9) 
"” 名 log>(+i 
其 中 , rel 是 发 现 结果 中 排 在 第 i 位 的 结果 的 相关 


性 等 级 。 

不 同 发 现 方法 发 现 的 结果 内 容 和 数量 不 同 , 为 了 
能 对 不 同 发 现 方法 进行 对 比 , 可 以 使 用 标准 折 损 累计 
增益 (Normalize Discounted Cumulative Gain, NDCG)。 
其 公式 如 下 : 


DCG, 
IDCG, 


NDCG, = (9) 


其 中 , IDCG, 是 发 现 结果 最 优 排 序 时 , 计算 出 的 
DCG,。 

实验 中 对 三 种 主题 学 习 方法 用 于 服务 发 现 的 效 
果 进 行 对 比 , 一 种 是 BTM, 一 种 是 LDA, 另 一 种 是 
以 Wikipedia 作为 外 部 知识 库 , 用 LDA 挖掘 主题 的 方 
法 。 在 Java 坏 境 下 , 利用 JDK、Eclipse 和 JGibbLDA 
等 工具 , 针对 本 文 数据 集 的 规模 ,设置 20-100 个 主题 
数 ,不断 调整 主题 数 的 大 小 ， 进行 迭代 , 计算 不 同 主 
题 数 对 应 的 聚 类 结果 的 F 值 (F-measure), 得 出 在 本 文 
数据 集中 , BTM、LDA 和 LDA+Wiki 分 别 在 48、55 
和 71 个 主题 数 时 达到 聚 类 效果 最 优 。 表 1 列举 PAM 
聚 类 中 的 一 些 主题 ， 以 及 相应 主题 中 排序 靠 前 的 部 


0 检索 出 的 全 部 Web 服 务 " 分 关键 词 。 
表 1 部 分 主题 - 词 分 布 
主题 词 及 其 相应 概率 
主题 1 cinema price version parameter retrieve show 
0.048368 0.034546 0.030127 0.0187934 0.009832 0.007656 
主题 2 get service time result city hour 
0.018766 0.01236 0.011016 0.009994 0.00875 0.008847 
主题 3 route location city weather tourist airplane 
0.02820 0.02348 0.020753 0.016753 0.014579 0.012782 
主题 4 music album song release rock band 
0.039748 0.018364 0.016545 0.018769 0.013831 0.010342 
主题 5 country british budget welfare culture party 
0.027491 0.018970 0.017239 0.097230 0.08371 0.052797 
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主题 的 词 分 布 ， 能 够 很 好 地 表现 出 每 个 主题 的 语 
义 信 息 , 主题 1、2、3、4 和 5 分 别 是 相机 、 时 间 、 旅 
游 、 音 乐 和 国家 信息 ,利用 这 些 主题 可 以 将 多 维 的 词 
向 量 降 维 到 较 低 的 主题 向 量 , 上 且 具 有 语义 信息 和 代表 
性 , 能 够 表示 一 个 文档 的 特征 。 

在 本 次 实验 中 ,随机 选取 12 个 查询 条 件 , 每 个 查 
询 条 件 的 相关 服务 集 由 一 组 相关 服务 组 成 , 每 个 相关 
服务 有 一 个 相关 等 级 ， 相 关 性 等 级 rel; e {1,2,3} ,3 表 
示 高 相关 度 , 1 表示 低 相 关 度 。 发 现 结果 与 相关 服务 集 
进行 对 比 ， 可 以 得 到 发 现 的 相关 服务 数量 和 各 个 相关 
服务 的 相关 性 等 级 ， 从 而 计算 出 查 准 率 和 NDCG。 与 
经 过 预 处 理 后 ， 直 接 使 用 LDA 建 模 学 习 隐 含 主题 并 聚 
类 发 现 Web 服务 ， 和 经 过 基于 Wikipedia 扩充 , 再 使 用 
LDA 建 模 的 方法 进行 对 比 , 结果 如 图 3 和 图 4 所 示 。 
本 文 的 方法 用 BTM 表示 , 仅仅 使 用 LDA 建 模 的 方法 
用 LDA 表示 , 经 过 扩充 的 方法 用 LDA+Wiki 表示 。 


0.9 
~ BTM 
8 0.8 
总 — LDA 
BE 0 一 一 LDA+Wiki 
0.6 
0.5 
5 10 15 20 25 30 35 40 45 50 
Number of Services Retrieved 
图 3 服务 发 现 查 准 率 对 比 
1.0 
0.9 
~ BTM 
w 0.8 
怠 一 一 LDA 
2 7 ——LDA+Wiki 
0.6 
0.5 


5 10 15 20 25 30 35 40 45 50 
Number of Services Retrieved 


图 4 服务 发 现 NDCG 对 比 


关于 查 准 率 的 对 比如 图 3 所 示 , LDA 和 LDA+ 
Wiki 在 检索 服务 数量 分 别 大 约 为 10 和 25 的 地 方 发 生 
交叉 , 但 总 体 上 LDA 要 比 LDA+Wiki 更 优 一 些 -BTM 
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在 整体 上 比 另 两 种 方法 的 查 准 率 高 一 些 , 尤其 当 检索 
服务 数量 越 多 的 时 候 , 图 中 数量 最 大 达到 50 时 , BTM 
与 LDA、LDA+Wiki 的 差异 达到 最 大 , 比 LDA 的 查 准 
率 高 0.7%。NDCG 反映 了 发 现 相 关 结 果 的 能 力 ， 如 图 
4 所 示 , BTM 优 于 LDA 和 LDA+Wiki, 大 约 比 LDA 高 
了 0.1%-0.8%, 在 服务 数量 最 少 为 5 时 , 高 0.1%， 当 服 
务 数量 达到 30 时 , 比 LDA 高 0.8%。 以 上 说 明 LDA 
和 LDA+Wiki 由 于 查 准 率 不 高 , 错失 了 一 些 高 相关 性 
的 Web 服务。 总体 上 ,本 文 的 发 现 方法 更 加 符合 Web 
服务 描述 文档 的 特点 , 能 够 帮助 更 好 地 发 现 Web 服务 ， 
无 论 是 查 准 率 或 标准 折 损 累计 增益 , 效能 都 更 优 。 
BTM 在 整个 Web 服务 描述 库 基 础 上 全 局 建 模 ,充分 
利用 整个 库 的 语义 信息 学 习 隐 含 主题 ， 弥 补 了 Web 描 
述 文本 较 短 、 缺 乏 词 频 共 现 和 语义 稀 朴 的 特点 。 而 
LDA 在 文档 层 建 模 , 很 容易 受到 文档 长 度 的 影响 , 导 
致 其 学 习 出 的 主题 不 准确 , 不 能 够 很 好 地 表达 语义 信 
息 , Web 服务 发 现 的 效果 也 不 如 BTM。 针 对 文本 长 度 
较 短 ,利用 Wikipedia 进行 扩充 ， 基 于 扩充 后 的 文本 词 
向 量 使 用 LDA 进行 建 模 ,其 服务 发 现 的 效果 其 至 不 如 
直接 使 用 LDA 进行 建 模 , 一 方面 由 于 外 部 资料 库 没 有 
全 部 包含 Web 服务 描述 文档 集 的 隐 含 主题 ; 另 一 方面 
综合 性 的 外 部 资料 库 拥 有 太 多 关联 关系 , 包含 各 行 各 
业 的 专 有 名 词 和 过 于 丰富 的 词语 ,导致 发 现 的 查 准 率 
下 降 。 


可 获得 的 Web 服务 数量 与 日 俱 增 , 为 了 在 海量 的 
Web 服务 中 快速 有 效 地 发 现 符合 用 户 需 求 的 服务 , 需 
要 将 功能 类 似 的 Web 服务 进行 聚 类 。 而 Web 服务 描 
述 文档 较 短 ,去除 标签 和 停 用 词 后 ， 所 剩 的 特征 词 并 
不 多 , 利用 LDA 学 习 隐 含 主题 ， 进而 进行 聚 类 , 由 于 
LDA 对 文档 的 生成 过 程 建 模 ,严重 依赖 于 文本 的 长 
度 , 所 以 利用 LDA 对 Web 服务 的 聚 类 效果 并 不 理想 ， 
不 能 很 好 地 帮助 服务 发 现 。 针 对 此 问题 , 利用 BTM 学 
习 Web 服务 文档 集 的 隐 仿 主题， 推理 出 每 个 文档 的 主 
题 分 布 , 利用 JS 距离 计算 出 各 个 文档 之 间 的 相似 度 ， 
作为 KNN 算法 的 输入 ,对 Web 服务 进行 聚 类 ,在 Web 
服务 发 现 阶段 , 综合 主题 相似 度 和 词 相 似 度 发 现 Web 
服务 。 本 文 的 发 现 方法 充分 利用 整个 Web 服务 库 的 语 
义 资源 ,学 习 出 较为 准确 的 隐 含 主题 ,不 需 借助 外 部 
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知识 库 , 减少 了 外 部 知识 库 因 相关 关系 太 多 等 原因 带 
来 的 噪声 信息 。 推 理 出 各 个 描述 文档 的 主题 并 进行 聚 
类 , 对 服务 请 求 进行 类 别 识别 ,大 大 缩小 了 查询 范围 ， 
提高 了 查询 效率 。 实 验 表明 , 本文 提出 的 Web 服务 发 
现 方法 在 准确 性 上 具有 一 定 的 优越 性 。 但 是 , 该 方法 
仅仅 考虑 Web 服务 的 功能 ,没有 将 服务 质量 纳入 计量 
范围 , Web 服务 真正 的 执行 率 不 能 保证 。 下 一 步 的 工作 
主要 对 服务 质量 进行 计算 , 将 服务 价格 、 可 靠 性 和 响 
应 时 间 等 与 服务 发 现 结合 , 为 用 户 提 供 更 加 可 靠 的 服 
务 。 另 外 ,如 何 对 每 个 Web 服务 进行 标签 标注 , 使 用 
户 在 选择 服务 时 能 够 一 目 了 然 , 选择 符合 要 求 的 服务 
进行 仔细 研读 , 也 是 未 来 的 一 个 方向 。 
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Abstract: [Objective] We propose an effective method to cluster and discover the needed Web services. [Methods] 


First, we employed the Biterm Topic Model to learn the latent topics of the Web service description corpus. Second, we 


retrieved and clustered each document’s topic distribution. Finally, we created a mechanism to discover Web service 


quickly. [Results| The proposed method achieved better precision rate and normalized discounted cumulative gain than 


methods using Latent Dirichlet Allocation and external corpus. [Limitations] Only considered functions of the Web 


services, and did not include the quality factors to the algorithm. [Conclusions] The proposed method could identify the 


needed services more accurately. 
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